Claude 3.5两小时暴虐50多名专家,编程10倍速飙升!但8小时曝出惊人短板
Claude 3.5两小时暴虐50多名专家,编程10倍速飙升!但8小时曝出惊人短板AI自主研发会真的「失控」了吗?最新研究显示,Claude 3.5 Sonnet和o1-preview在2小时内的研发任务中,击败了50多位人类专家。但另一个耐人寻味的现象是,给予更长时间周期后,人类专家在8小时任务中优势显现。
AI自主研发会真的「失控」了吗?最新研究显示,Claude 3.5 Sonnet和o1-preview在2小时内的研发任务中,击败了50多位人类专家。但另一个耐人寻味的现象是,给予更长时间周期后,人类专家在8小时任务中优势显现。
Claude 3.5 Sonnet 应该是目前公认综合能力最好的基础模型。
测评大模型Agent能力,从未如此直观。 新旧两版Claude 3.5 Sonnet在《我的世界》里PK盖楼,差距不要太明显,引来大量围观。
刚刚,Claude 3.5 Haiku允许通过API访问,同一天,xAI也官宣Grok API也正式开启公测。
上周Anthropic发布了Claude 3.5 Sonnet的升级,让AI助手能够通过"电脑使用"功能直接与计算机交互。
OpenAI再也不是微软的唯一解。第十届GitHub开发者大会上,微软官宣GitHub Copilot同时接入Claude 3.5 Sonnet和Gemini 1.5 Pro两大模型。同时,还发布了0代码开发应用的「魔法」平台。AI代码生成第二阶段已来。
Claude游戏测试,能打几分?在持续一个多小时毁灭人类游戏中,Claude能制定出长期策略,令人惊喜的同时,也暴露出了AI短板。
科幻中的贾维斯,已经离我们不远了。Claude 3.5接管人类电脑掀起了人机交互全新范式,爆料称谷歌同类Project Jarvis预计年底亮相。AI操控电脑已成为微软、苹果等巨头,下一个发力的战场。
这个星期,AI 大模型突然迈上了一个新台阶,竟开始具备操作计算机的能力!
这两天,Claude 3.5 Sonnet升级版刷爆了朋友圈,满屏都是:它能像人一样操作电脑。 大语言模型(Large Language Model,LLM)能够像人一样操作电脑这件事,看起来蛮炸裂的,但在AI Agent圈子里早已经见多不怪了。